单样本 T 检验 - 快速教程与示例

作者:Ruben Geert van den Berg 在 Statistics A-Z & T-Tests 下发布

单样本 T 检验 (One-Sample T-Test) 评估一个总体均值是否可能为 x:某个假设值。

单样本 T 检验图

单样本 T 检验示例

一位学校校长认为他的学生由于智商 (IQ) 分数低而表现不佳。现在,大多数智商测试都经过校准,在一般人群中的平均值为 100 分。所以问题是:学生群体的平均智商分数是否为 100?现在,我们的学校有 1,114 名学生,并且智商测试的管理成本有些高。因此,我们的校长抽取了一个 N = 38 名学生的简单随机样本,并测试了他们的 4 个智商组成部分:

  • verb (Verbal Intelligence, 语言智力)
  • math (Mathematical Ability, 数学能力)
  • clas (Classification Skills, 分类技能)
  • logi (Logical Reasoning Skills, 逻辑推理技能)

因此收集的原始数据位于 此 Google 表格 中,部分内容如下所示。请注意,由于疾病和未知原因,缺少几个分数。

单样本 T 检验示例数据

零假设 (Null Hypothesis)

我们将尝试通过拒绝零假设来证明我们的学生智商分数较低,即对于测量的 4 个智商组成部分的每一个,整个学生群体的平均智商分数为 100。我们面临的主要挑战是,我们只有来自 N = 1,114 的人口的 38 名学生的样本数据。但让我们首先看一下每个组成部分的一些描述性统计信息:

  • N - 样本大小 (sample size)
  • M - 样本均值 (sample mean)
  • SD - 样本标准差 (sample standard deviation)

描述性统计 (Descriptive Statistics)

单样本 T 检验的描述性统计

我们的第一个基本结论是,我们的 38 名学生在所有 4 个智商组成部分的得分都低于 100 分。verb (99.29) 和 math (97.97) 的差异很小。clas (93.91) 和 logi (94.74) 的差异似乎更为严重。

现在,我们的 38 名学生的样本显然可能会得出与我们的 N = 1,114 的总体略有不同的均值。那么,关于我们的人口,我们能(不能)得出什么结论?我们将尝试使用 2 种不同的方法将这些样本结果推广到我们的人口:

这两种方法都需要一些假设,因此让我们首先研究这些假设。

假设 (Assumptions)

我们的单样本 t 检验所需的假设是:

  1. 独立观察 (independent observations):每个学生的测试结果互不影响。
  2. 正态性 (normality):智商分数在整个人群中必须是 正态分布 (normally distributed)

我们的数据是否符合这些假设?首先,

1. 我们的学生在测试期间没有互动。因此,我们的观察结果很可能是独立的。

2. 只有在小样本量(例如 N < 25 左右)时才需要正态性。对于手头的数据,正态性不是问题。对于较小的样本量,您可以通过以下方式评估正态性假设:

但是,手头的数据满足所有假设,因此现在让我们研究实际的测试。

公式 (Formulas)

如果我们抽取 许多 学生的样本,这样的样本将得出不同的均值。我们可以计算假设样本中这些均值的标准差:均值的标准误差或 \(SE_{mean}\)

\[SE_{mean} = \frac{SD}{\sqrt{N}}\]

对于我们的第一个智商组成部分,这导致

\[SE_{mean} = \frac{12.45}{\sqrt{38}} = 2.02\]

我们的零假设是总体均值 \(_0 = 100\)。如果这是真的,那么平均样本均值也应该为 100。我们现在基本上计算样本均值的 z 分数:检验统计量 \(t\)

\[t = \frac{M - \mu_0}{SE_{mean}}\]

对于我们的第一个智商组成部分,这导致

\[t = \frac{99.29 - 100}{2.02} = -0.35\]

如果满足假设,\(t\) 遵循 t 分布,自由度或 \(df\) 由下式给出

\[df = N - 1\]

对于 38 名受访者的样本,这导致

\[df = 38 - 1 = 37\]

给定 \(t\) 和 \(df\),我们可以简单地在 此 Google 表格 中查找双尾显著性水平 \(p\) = 0.73,部分内容如下所示。

Google 表格中的单样本 T 检验

解释 (Interpretation)

根据经验法则,如果 p < 0.05,我们拒绝零假设。我们刚刚发现 p = 0.73,因此我们拒绝我们的零假设:给定我们的样本数据,总体均值为 100 是一个可信的陈述。

那么,p = 0.73 究竟意味着什么?好吧,这意味着 t < -0.35 或 t > 0.35 的概率为 0.73(或 73%)。下图说明了此概率如何从 抽样分布 (sampling distribution) t(37) 得出。

T 分布中的双尾显著性

接下来,请记住 t 只是一个标准化的平均差异。对于我们的数据,t = -0.35 对应于 -0.71 智商点的差异。因此,p = 0.73 意味着找到至少 0.71 点的绝对平均差异的概率为 0.73。粗略地说,如果我们,发现的样本均值很可能发生 在零假设为真的情况下。

效应量 (Effect Size)

单样本 t 检验的唯一 效应量测量 (effect size measure)Cohen’s D,定义为

\[Cohen's\;D = \frac{M - \mu_0}{SD}\]

对于我们的第一个智商测试组成部分,这导致

\[Cohen's\;D = \frac{99.29 - 100}{12.45} = -0.06\]

一些一般约定是:

  • Cohen’s D | = 0.20 表示 效应量;
  • Cohen’s D | = 0.50 表示 中等 效应量;
  • Cohen’s D | = 0.80 表示 效应量。

这意味着对于我们的第一个测试组成部分,Cohen’s D = -0.06 表示可忽略不计的效应量。SPSS 中完全没有 Cohen’s D,除了 SPSS 27JASP 可以轻松获得它。下面的 JASP 输出显示了所有 4 个智商测试组成部分的效应量。

单样本 T 检验 Jasp 输出

请注意,最后 2 个智商组成部分 -clas 和 logi- 几乎具有中等效应量。这些也是均值与 100 显着不同的 2 个组成部分:两个均值的 p < 0.05(第三个表格列)。

均值的置信区间 (Confidence Intervals for Means)

我们的数据得出了我们 4 个智商测试组成部分的样本均值。现在,我们知道样本均值通常与其总体对应值略有不同。那么,我们想要的总体均值的可能范围是什么?这通常通过计算 95% 置信区间 (confidence intervals) 来回答。我们将演示最后一个智商组成部分(逻辑推理)的过程。

由于我们有 34 个观察值,因此 t 遵循自由度 df = 33 的 t 分布。我们将首先查找哪些 t 值从逆 t 分布中包含了最可能的 95%。我们将通过在 Google 表格 的任何单元格中键入 =T.INV(0.025,33) 来执行此操作,该表格返回 -2.03。请注意,0.025 为 2.5%。这是因为 5% 的最不可能值分布在分布的两端,如下图所示。

从 Google 表格中的逆 T 分布中查找置信区间的临界值

现在,我们的 t 值 -2.03 估计我们的 95% 的样本均值在 ± 2.03 个标准误差之间波动,由 \(SE_{mean}\) 表示。对于我们的最后一个智商组成部分,

\[SE_{mean} = \frac{12.57}{\sqrt34} = 2.16 \]

我们现在知道,我们的 95% 的样本均值估计在 ± 2.03 · 2.16 = 4.39 个智商测试点之间波动。最后,我们将此波动与我们观察到的 94.74 的样本均值相结合:

\[CI_{95\%} = [94.74 - 4.39,94.74 + 4.39] = [90.35,99.12]\]

请注意,我们的 95% 置信区间不包含我们假设的 100 的总体均值。这意味着我们将在 α = 0.05 时拒绝此零假设。我们甚至不需要运行实际的 t 检验来得出此结论。

APA 格式报告 (APA Style Reporting)

单个 t 检验通常在文本中报告,如“语言技能的平均值与 100 没有差异,t(37) = -0.35, p = 0.73, Cohen’s D = 0.06。”对于多个测试,建议使用如下所示的简单概述表。我们认为还应包括均值的置信区间(不是均值差异)。由于 APA 没有提及这些,我们暂时将它们排除在外。

单样本 T 检验的 APA 格式报告表 单样本 T 检验的 APA 格式报告表示例